 Academia de Studii Economice din Bucureşti Facultatea de Relaţii Economice Internaţionale Proiect - Econometrie Coordonator: Prof univ dr Begu Liviu Stelian Student: Culea Sorin-Constantin Gr 968 Ianuarie 2010 Proiect Econometrie Culea Sorin Constantin Înregistraţi pentru cel puţin 15 unităţi valorile unei perechi de caracteristici x şi y între care există o legătură logică Datele prezentate sub formă tabelară fac parte din problemă A Prezentarea problemei B Definirea modelului de regresie liniară simplă a forma, variabilele şi parametrii modelului de regresie b aproximarea grafică a modelului legăturii dintre variabile c estimarea parametrilor modelului i estimarea punctuală ii estimarea cu ajutorul intervalelor de încredere d testarea semnificaţiei corelaţiei şi a parametrilor modelului de regresie i testarea semnificatiei corelatiei ii testarea parametrilor unui model de regresie e testarea ipotezelor clasice asupra modelului de regresie simplă i ipoteze statistice clasice asupra modelului de regresie simplă ii testarea liniarităţii modelului propus iii testarea normalităţii erorilor iv testarea ipotezei de homoscedasticitate v testarea ipotezei de autocorelare a erorilor f previziunea valorii variabilei y daca variabila x creşte cu 10% faţă de ultima valoare înregistrată A Prezentarea problemei În vederea realizării prezentului proiect am utilizat aplicaţia Excel din Microsoft Office şi formularea concluziilor care se pot determina pe baza outputului din Excel Pentru analiza modelului de regresie simplă, am folosit date referitoare la venitul mediu per capita şi consumul mediu per capita, date specifice celor 27 de ţări membre din Uniunea Europeana Am sintetizat informaţiile despre cele 27 ţări, membre ale Uniunii Europene şi cele 2 variabile pentru anul 2009, in tabelul urmator: Nr Crt Tara Consum mediu x Venit mediu y 1 Austria 16600 00 34733 27 2 Belgia 14500 00 33850 91 3 Bulgaria 4300 00 4531 40 4 Cehia 10300 00 12943 66 5 Cipru 18600 00 20144 55 6 Danemarca 13400 00 44162 47 7 Estonia 7800 00 10513 45 8 Finlanda 13600 00 34351 91 9 Franta 14500 00 31869 36 10 Germania 15200 00 31742 24 11 Grecia 16800 00 21714 83 12 Irlanda 15800 00 33110 63 2 Proiect Econometrie Culea Sorin Constantin 13 Italia 14500 00 26253 71 14 Letonia 8700 00 9264 70 15 Lituania 8400 00 8531 90 16 Luxemburg 25600 00 57360 36 17 Malta 11800 00 12480 05 18 Marea Britanie 17000 00 30934 66 19 Olanda 13800 00 36236 25 20 Polonia 8700 00 9167 49 21 Portugalia 11900 00 16383 33 22 Romania 5800 00 6228 81 23 Slovacia 10100 00 12061 30 24 Slovenia 12000 00 17587 22 25 Spania 15200 00 24017 92 26 Suedia 13600 00 36520 40 27 Ungaria 8700 00 9705 87 Tabel 1: Consumul mediu si venitul mediu per capita pentru cele 27 de tari membre ale Uniunii Europene Surse: www insse ro, Eurostat, www bnr ro Pentru a determina în ce măsură variabila independenta contribuie la modificarea variabilei dependente vom elabora un model de regresie liniară simplă, vom determina dacă acesta poate fi considerat valid, adică dacă există, sau nu, o legătură liniară între venitul mediu per capita şi consumul mediu per capita, iar dacă acesta va fi valid, vom realiza o previziune a venitului mediu pentru o alta perioada, caracterizata de anumite valori ale variabilei independente Venitul mediu – reprezintă salariul mediu brut per persoana Consum mediu – reprezinta cheltuielile unei persoane pentru toate serviciile si produsele necesare B Definirea modelului de regresie liniară simplă a forma, variabilele şi parametrii modelului de regresie In cazul nostrum modelul econometric este unui unifactorial dat fiind faptul ca avem o influenta ai variabilei rezultative y – consumul mediuc - de catre un factor determinant x – venitul mediu Pornind de la datele aplicaţiei se poate construi un model econometric unifactorial de forma: y = f ( x) + u (1) unde: y = valorile reale ale variabilelor dependente; x = valorile reale ale variabilelor independente; u =variabila reziduală, reprezentând influenţele celorlalţi factori ai variabilei y, nespecificaţi în model, consideraţi factori întâmplători, cu influenţe nesemnificative asupra variabilei y Analiza datelor din tabel, în raport cu procesul economic descris conduce la următoarea specificare a variabilelor: y = Consumul mediu (endogenă) – variabila independenta; 3 Proiect Econometrie Culea Sorin Constantin x = Venitul mediu (exogenă) – variabila dependenta – respectiv factorul considerat prin ipoteza de lucru cu influenţa cea mai puternică asupra variabilei y Identificarea modelului unifactorial constă în alegerea unei funcţii care să aproximeze valorile variabilei endogene y numai în funcţie de valorile variabilei exogene x Aplicaţia aleasă de mine conţine ca variabilă efect, consumul mediu, consum care este dat de ecuaţia de regresie y = a + bx + u (2) unde: x= Venitul mediu In baza acestei reprezentari grafice de la punctu b se poate vedea clar o legatura liniara intre cele doua variabile astfel modelul devine un model unifactorial liniar Si dat fiind ca dependent variabilei endogene y – consumul mediu – fata de valorile variabilei exogene x – venitul mediu – se realizeaza in aceeasi perioada de timp modelul devine un model unifactorial liniar static b aproximarea grafică a modelului legăturii dintre variabile Procedeul cel mai des folosit, în cazul unui model unifactorial, îl constituie reprezentarea grafică a celor două şiruri de valori cu ajutorul corelogramei Corelograma care reprezinta legătura consumul mediu si venitul mediu este prezentată în graficul de mai zos in baza datelor din primul tabel c estimarea parametrilor modelului i estimarea punctuală ii estimarea cu ajutorul intervalelor de încredere 4 Proiect Econometrie Culea Sorin Constantin Deoarece parametrii modelului sunt necunoscuti, valorile acestora se pot estima cu ajutorul mai multor moment, in mod curent fiind folosita M C M M P Utilizarea metodei porneste de la urmatoarea relatie: Unde: valorile teoretice ale variabilei „y” obtinute numai in functie de valorile factorului „x” si de valorile estimatorilor parametrilor „a” si „b”, respectiv „ ” si „ ” Estimatiile valorilor variabilei reziduale: In mod concret MCMMP consta in a minimize functia Conditiile de minim a acestei functii rezulta din: 27 + 626402 66 = 347200 00 626402 66 + 19192854479 37 = 9332908414 35 Se determina si : = 6497 8252 = 0 2741 Coefficients Intercept 6497 825219 Venit mediu X 0 274198577 Dispunand de estimatiile parametrilor se pot calcula valorile teoretice (estimate) ale variabilei endogene cu ajutorul relatiei: 6497 8252 + 0 2741 si valorile rezidualei Predicted Consum mediu Y Residuals 16021 63716 578 3628393 15779 69748 -1279 697482 7740 328994 -3440 328994 10046 95729 253 0427098 12021 43111 6578 568889 18607 11119 -5207 111188 5 Proiect Econometrie Culea Sorin Constantin 9380 598005 -1580 598005 15917 07001 -2317 070011 15236 35837 -736 3583719 15201 50266 -1 502655449 12452 00173 4347 998273 15576 71419 223 2858084 13696 55584 803 4441616 9038 191849 -338 1918488 8837 258895 -437 258895 22225 95469 3374 045307 9919 836442 1880 163558 14980 06634 2019 933661 16433 75475 -2633 75475 9011 537477 -311 5374773 10990 11197 909 8880288 8205 755326 -2405 755326 9805 017611 294 9823889 11320 21611 679 7838905 13083 5053 2116 494704 16511 66753 -2911 667528 9159 161688 -459 1616883 Estimarea prin interval de încredere a parametrilor modelului de regresie liniara => => [-2028 359976 , 2028 908373] Valorile variabilei reziduale se calculează după relația: Pe baza acestor valori se pot calcula abaterea medie pătratica a variabilei reziduale si abaterile medii pătratice ale celor doi estimatori: 158944876 65 Abaterea medie pătratica a valorii reziduale: = 6357795 066 = 2521 466848 k= nr Parametrilor = 2 6 Proiect Econometrie Culea Sorin Constantin Abaterea medie pătratica a estimatorului : = 969779 5775 = 984 7738713 Abaterea medie pătratica a estimatorului : = 0 00136426 = 0 036935894 In urma acestor calcule, modelul econometric se poate scrie: (984 7738713) (0 036935894) d testarea semnificaţiei corelaţiei şi a parametrilor modelului de regresie i testarea semnificatiei corelatiei ii testarea parametrilor unui model de regresie Estimatorii sunt semnificativ diferiți de zero, cu un prag de semnificație , daca se verifica următoarele relații: in exemplu: Pe baza calculelor se observa faptul ca ambii estimatori sunt semnificativ diferiți de zero, cu un prag de semnificație Pentru a verifica ipoteza de liniaritate se calculează coeficientul de corelatie liniara: 7 Proiect Econometrie Culea Sorin Constantin ceea ce indica o corelatie foarte puternica intre export si import Verificarea verosimilitatii modelului se face cu ajutorul analizei dispersionale ANOVA Significanc df SS MS F eF Regression 1 350380308 5 350380308 5 55 11034956 8 93E-08 Residual 25 158944876 7 6357795 066 Total 26 509325185 2 Testul Fisher-Snedecor indica faptul ca rezultatele obținute sunt semnificative pentru pragul de semnificație de 5%: Pe baza datelor din tabel se poate calcula si raportul de corelație: Se poate demonstra ca in cazul unei legături liniare, raportul de corelație este egal cu coeficientul de corelație liniara: Verificarea semnificației raportului de corelație si, implicit, a coeficientului de corelație liniara se face cu ajutorul testului Fisher-Snedecor: Rx,y este semnificativ daca: Pentru exemplu nostru: Deoarece raportul de corelație este semnificativ diferit de zero cu un prag de semnificație modelul descrie corect dependenta dintre venit si consum, explicand in masura a 68,79% influenta factorului de influenta asupra variabilei dependente 8 Proiect Econometrie Culea Sorin Constantin e testarea ipotezelor clasice asupra modelului de regresie simplă i ipoteze statistice clasice asupra modelului de regresie simplă ii testarea liniarităţii modelului propus iii testarea normalităţii erorilor iv testarea ipotezei de homoscedasticitate v testarea ipotezei de autocorelare a erorilor Estimatorii obtinuti cu ajutorul M C M M P sunt estimatori de maxima verosimilitate daca pot fi acceptate urmatoarele ipoteze: 1 variabilele observate nu sunt afectate de erori de măsura Aceasta condiție se verifica cu regula celor trei sigma, regula care consta in verificarea următoarelor relații: Deoarece valorile acestor variabile apartin intervalelor si , ipoteza de mai sus poate fi acceptata fara rezerve 2 variabila reziduala (aleatoare) este de medie nula , iar dispersia ei, , este constanta si independenta de X – ipoteza de homoscedasticitate, pe baza căreia se poate admite ca legătura dintre X si Y este relativ stabila Acceptarea se poate face folosind mai multe metode: 2 1 care consta in construirea corelogramei privind valorile variabilei factoriale si ale variabilei reziduale 9 Proiect Econometrie Culea Sorin Constantin Deoarece graficul punctelor empirice prezinta o distributie oscilanta, se poate accepta ipoteza ca cele doua variabile sunt independente si necorelate 2 2 Procedeul dispersiilor variabilei reziduale In cazul de fata nu se recomanda utilizeazarea acestui procedeu, deoarece nu s-ar obtine rezultate concludente datorita numarului mic de date 3 valorile variabilei reziduale ( sunt independente, respectiv nu exista fenomenul de autocorelare Acceptarea sau respingerea acestei condiții se poate face cu: 3 1 procedeul grafic (corelograma dintre valorile variabilei dependente si valorile variabilei reziduale 10 Proiect Econometrie Culea Sorin Constantin Ca si in graficul precedent se observa ca distribuția punctelor empirice este oscilanta, deci se poate accepta ipoteza de independenta a erorilor 3 2 Testul Durbin-Watson (DW) consta in calcularea termenului empiric: si compararea acestei mărimi „d” cu doua valori teoretice d1 si d2, preluate din tabela Durbin-Watson in funcție de un prag de semnificație , arbitrar ales, de numărul variabilelor exogene (k) si de valorile observate n Acceptarea sau respingerea ipotezei de independenta a erorilor se bazează pe o anumita regula, care consta in:  autocorelare pozitiva;  indecizie;  erorile sunt independente;  indecizie;  autocorelare negativa; 11 Proiect Econometrie Culea Sorin Constantin Pentru exemplul nostru d=2 2152; d1=1 30; d2=1 46 se poate accepta ipoteza de independenta a valorilor variabilei reziduale 3 3 coeficientul de autocorelație de ordinul 1 este: Stiind ca: Deoarece coeficientul tinde catre zero inseamna ca poate fi acceptata ipoteza de independenta a valorilor variabilei reziduale 4 verificarea ipotezei de normalitate a valorilor variabilei reziduale Se stie ca, daca erorile urmeaza legea normala de medie 0 si de abatere medie patratica (consecinta ipotezelor 1,2,3) atunci are loc relatia: Pe baza acestei relații, in funcție de diferite praguri de semnificație α, din tabela distribuției normale se vor prelua valorile corespunzătoare ale lui Lucrând cu din tabelul Student se preia valoarea variabilei, cu un număr de grade de libertate v = n-2 = 27-2 = 25 iar, pentru avem Cu ajutorul acestor date, verificarea ipotezei de normalitate se poate face pe baza următorului grafic: pe axa Ox se vor reprezenta valorile ajustate ale variabilei y ( , iar pe axa Oy se vor trece valorile variabilei reziduale 12 Proiect Econometrie Culea Sorin Constantin Se observa ca valorile variabilei reziduale se inscriu in banda construita pentru pragul de semnificație Ca urmare, ipoteza de normalitate a variabilei reziduale poate fi acceptata cu acest prag de semnificație f previziunea valorii variabilei y stiind ca o tara are un venit mediu de 30000 euro In continuare este calculat consumul estimat pentru un venit mediu de 30000 euro (in conditiile modelului econometric construit ) Concluzii Modelul de regresie multiplă estimat s-a dovedit a fi unul precis – are un coeficient de determinare mare = 0 687930459, adică consumul se explică în măsură de aproape 70% de către variabila independente inclusa în model În plus, sunt perfect verificabile ipotezele metodei celor mai mici pătrate (MCMMP) – erorile sunt homoscedastice, nu sunt autocorelate, iar variabilele nu sunt coliniare Valoarea testului F este suficient de mare pentru a determina validitatea globală a modelului pentru un prag de semnificaţie de cel puţin Significance F = 8 93232E-08, cu mult mai mic decât α ales 13 Proiect Econometrie Culea Sorin Constantin Anexa 1 Utilizând funcţia de regresie din EXCEL, şi anume selectând TOOLS – DATA ANALYSIS – REGRESSION, am obţinut următoarele rezultate, care vor fi interpretate fiecare in parte SUMMARY OUTPUT Regression Statistics Multiple R 0 829415734 R Square 0 687930459 Adjusted R Square 0 675447678 Standard Error 2521 466848 Observations 27 ANOVA df SS MS F Significance F Regression 1 350380308 5 350380308 5 55 11034956 8 93232E-08 Residual 25 158944876 7 6357795 066 Total 26 509325185 2 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95 0% Upper 95 0% Intercept 6497 825219 984 7738713 6 598291657 6 50863E-07 4469 645482 8526 004956 4469 645482 8526 004956 Venit mediu X 0 274198577 0 036935894 7 423634525 8 93232E-08 0 19812768 0 350269474 0 19812768 0 350269474 RESIDUAL OUTPUT Observation Predicted Residuals 14 Proiect Econometrie Culea Sorin Constantin Consum mediu Y 1 16021 63716 578 3628393 2 15779 69748 -1279 697482 3 7740 328994 -3440 328994 4 10046 95729 253 0427098 5 12021 43111 6578 568889 6 18607 11119 -5207 111188 7 9380 598005 -1580 598005 8 15917 07001 -2317 070011 9 15236 35837 -736 3583719 10 15201 50266 -1 502655449 11 12452 00173 4347 998273 12 15576 71419 223 2858084 13 13696 55584 803 4441616 14 9038 191849 -338 1918488 15 8837 258895 -437 258895 16 22225 95469 3374 045307 17 9919 836442 1880 163558 18 14980 06634 2019 933661 19 16433 75475 -2633 75475 20 9011 537477 -311 5374773 21 10990 11197 909 8880288 22 8205 755326 -2405 755326 23 9805 017611 294 9823889 24 11320 21611 679 7838905 25 13083 5053 2116 494704 26 16511 66753 -2911 667528 27 9159 161688 -459 1616883 15 Proiect Econometrie Culea Sorin Constantin Anexa 2 Interpretarea generala a rezultatelor SUMMARY OUTPUT Regression Statistics Multiple R 0 829415734 R Square 0 687930459 Adjusted R Square 0 675447678 Standard Error 2521 466848 Observations 27 Multiple R (coeficientul multiplu de corelaţie sau r) = 0 829415734 Observăm că valoarea lui “r” este > 0, ceea ce inseamnă ca între cele două variabile considerate: consumul mediu si venitul mediu există o legatură directa R Square (coeficientul de determinare sau R2) este egal cu patratul coeficientului de corelatie multipla) Poate fi gandit, exprimat procentual, drept proportia din variatia variabilei dependente explicata de variatia variabilelor independente R Square (R²) (coeficientul de determinaţie), exprimă cât din variaţia frecvenţei consumului mediu este explicat de variaţia venitului mediu El poate lua valori in intervalul Cu cât valoarea lui este mai apropiată de 1, cu atât partea din variaţia lui Y, explicată de X, este mai mare, şi legătura dintre ele este mai puternică In cazul nostru, R Square are valoarea 0 687930459; exprimând procentual 68,79% din variaţia consumului mediu poate fi explicată de variabila venitul mediu Adjusted R Square (Raportul de corelatie ajustat) = 0 675447678 arata ca 0 675447678 din variaţia totală este datorată liniei de regresie, ţinând cont de numărul de grade de libertate (n-k=27- 2=25) Standard Error (eroarea standard a estimatiei) Se calculează ca abaterea standard a reziduurilor si este estimatia abaterii standard a erorilor ε (in ipoteza normalitatii acestora) In cazul nostru are valoarea 2521 466848 Observations (numarul de observatii din esantion) = in acest caz sunt 27 observatii in esantion Rezultatele din tabelul ANOVA ANOVA df SS MS F Significance F Regression 1 350380308 5 350380308 5 55 11034956 8 93232E-08 Residual 25 158944876 7 6357795 066 Total 26 509325185 2 Testul ANOVA (analysis of variance) este folosit pentru validarea modelului de regresie utilizat 16 Proiect Econometrie Culea Sorin Constantin Variaţia explicată prin modelul de regresie este de 350380308 5, iar media variaţiei explicată, corectata prin numarul de grade de libertate (2), este 350380308 5 Variaţia reziduală (variaţia neexplicată de modelul de regresie) este de 158944876 7, iar media variatiei reziduale corectată cu numărul de grade de libertate (25) = 6357795 066 În tabel este calculat testul F (Fisher) Intrucat F= 55 11034956, iar Significance F (pragul de semnificatie)= 8 93232 (mult mai mare decat α= 0,05) modelul de regresie construit este valid pentru o probabilitate de cel mult 95% şi poate fi utilizat pentru analiza dependenţei dintre variabilele consum mediu si venit mediu df (numărul gradelor de libertate): k – 1=1, n – k=25, n – 1=26, unde k = 2 este numărul de variabile ale modelului (variabila x, respectiv y), iar n = 27 este numărul de observaţii SS (sumele de patrate) potrivit descompunerii: Suma globală de pătrate = Suma de pătrate datorata regresiei + Suma de pătrate reziduală; MS (media sumelor de pătrate): SS împarţită la numărul respectiv de grade de libertate Valoarea de pe linia a doua (Residual) este estimaţia dispersiei pentru repartiţia erorilor şi este pătratul erorii standard a estimaţiei F (valoarea statisticii F) pentru testul caracterizat de: H0 : modelul nu este valid statistic; H1 : modelul este valid statistic; Significance F (probabilitatea critică unilaterală) Dacă valoarea rezultată este mai mică decât pragul de semnificaţie fixat, atunci se respinge ipoteza nulă în favoarea ipotezei alternative Coefficie Standard P- Lower Upper Lower Upper nts Error t Stat value 95% 95% 95 0% 95 0% Interce 6497 825 984 7738 6 598291 6 5086 4469 645 8526 004 4469 645 8526 004 pt 219 713 657 3E-07 482 956 482 956 Venit mediu 0 274198 0 036935 7 423634 8 9323 0 198127 0 350269 0 198127 0 350269 X 577 894 525 2E-08 68 474 68 474 Intercept este termenul liber, deci coeficientul b1= 6497 825219 Termenul liber este punctul în care variabila explicativă este 0 Deoarece t statistic = 6 598291657, iar P-value 6 50863E-07 < 0,05, înseamnă că acest coeficient este semnificativ Termenul liber al ecuaţiei de regresie se găseşte cu o probabilitate de 95% in intervalul : Coeficientul corespunzător variabilei independente (b2) are o valoare de 0 274198577 ceea ce înseamna că la creşterea cu o unitate a venitului mediu, consumul mediu va creşte cu 0 274198577 Din cauza ca pragul de semnificatie P-value= 8 93232E-08 < 0,05 înseamnă că acest coeficient este semnificativ diferit de zero Intervalul de încredere pentru parametrul „venit mediu” este Din analiza coeficientilor, deducem ca modelul de regresie este : ∧ Y = 6497 825219 + 0 274198577 * X Legatura dintre cele două variabile este directă Dupa cum subliniam şi anterior la cresterea cu o unitate a variabilei X (venit mediu), variabila Y(consum mediu) creşte cu 0 274198577 RESIDUAL OUTPUT 17 Proiect Econometrie Culea Sorin Constantin Predicted Consum mediu Observation Y Residuals 1 16021 63716 578 3628393 2 15779 69748 -1279 697482 3 7740 328994 -3440 328994 4 10046 95729 253 0427098 5 12021 43111 6578 568889 6 18607 11119 -5207 111188 7 9380 598005 -1580 598005 8 15917 07001 -2317 070011 9 15236 35837 -736 3583719 10 15201 50266 -1 502655449 11 12452 00173 4347 998273 12 15576 71419 223 2858084 13 13696 55584 803 4441616 14 9038 191849 -338 1918488 15 8837 258895 -437 258895 16 22225 95469 3374 045307 17 9919 836442 1880 163558 18 14980 06634 2019 933661 19 16433 75475 -2633 75475 20 9011 537477 -311 5374773 21 10990 11197 909 8880288 22 8205 755326 -2405 755326 23 9805 017611 294 9823889 24 11320 21611 679 7838905 25 13083 5053 2116 494704 26 16511 66753 -2911 667528 27 9159 161688 -459 1616883 În tabelul RESIDUAL OUTPUT, pe coloane, sunt enumerate toate observaţiile luate în considerare (27), valorile ajustate după ecuaţia de regresie şi valoarea reziduală Pentru fiecare observatie (linie din tabelul de date iniţial) se afiseaza: Observation (numarul de ordine al observatiei); Predicted y – valoarea y (Consumul mediu) prognozată pentru observaţia respectivă; (se obţine înlocuind valorile X ale observaţiei în modelul estimate) Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi valoarea prognozată); Standard Reziduals – valoarea standardizată a erorii Este obţinută prin împarţirea reziduului la abaterea standard a reziduurilor 18 